HSD: Autodestilación retrospectiva para razonamiento LLM
HSD mejora la asignación de crédito en razonamiento LLM usando pares exitosos. Resultados superiores en benchmarks de matemáticas y código con Qwen3.
HSD mejora la asignación de crédito en razonamiento LLM usando pares exitosos. Resultados superiores en benchmarks de matemáticas y código con Qwen3.